肖志国:真实准确的疫情数据是公共产品
The following article is from 南风窗 Author 刘郝
FDSM
任何公众都要积极配合疫情的统计,包括相关流行病学的调查和检测等工作。应该意识到,真实准确的数据信息是一个公共产品,对全社会都有好处。
数据,在疫情应对中随处可见。从疫情初期开始,最受公众关注的信息之一就是疫情数据实时动态。经过可视化处理,疫情数据变成图片,形成玫瑰花瓣图等静态图片,或者以时间为轴的动态图片。经由模型分析,疫情数据帮助预测疫情发展态势,成为决策的重要参考依据。
真实准确的疫情数据,是全球所有国家的共同追求。呈现基础数据,预测疫情趋势,形成疫情图形,这些工作的关键都在于统计学。而实际上,现代统计学的起源之一就是对疾病的记录与分析。
《南风窗》记者专访复旦大学管理学院统计学系副系主任、复旦大学复杂决策分析中心副主任肖志国教授。他认为,统计学对疫情数据的收集、描述和分析,显著提升了全球疫情防控的凝聚力和共识。
Q :中国和世界范围内的疫情统计工作是何时起步的?
肖志国:广义的疫情统计,在我国历史很早就有。20世纪初,我国的现代疫情统计开始发展。伍连德医生被公认为中国疫情统计事业开创者,他在1911年1-4月间领导扑灭了发生在东北的肺鼠疫大疫情。
世界范围内,对疫情的系统统计和流行病学调查,大约起源于19世纪50年代,差不多是一个半世纪以前。主要发源是在克里米亚战争时期,南丁格尔对英国士兵伤亡原因的统计分析,以及斯诺医生在同时间对伦敦霍乱的调查统计。南丁格尔在此后开创了现代的医护体系,而斯诺医生也被广泛认为是现代流行病学的创始人。
这次的新冠肺炎疫情统计工作,相比非典时期,我们又有一个质的飞跃,这不仅是因为技术本身的提高,也是因为客观上此次新冠病毒的传染性更强,就要求我们建立一个更强大的疫情监控和统计体系。
Q :我们已经进入大数据时代,统计学在新冠肺炎这种突发重大新型疫情面前,可以提供哪些帮助?
肖志国:统计学是一门以数据分析为基础提出解决方案的学科。党的十九届四中全会提出数据是社会生产的基本要素之一。这一次,我们同样要用统计学来开发和利用好各种疫情数据。
首先,统计学可以帮助社会准确客观地判断疫情现状。这里讲到的现状是多方面的,最基本是与疫情直接相关的统计数字。进一步讲,也可以利用统计学作出对于疾病机理的一些核心判断,比如病毒潜伏期有多长,各种传播方式的可能性等等。
一定意义上说,流行病学家的工作就是在对疫情数据进行统计分析,找出疫情传播的核心特征和规律。所以流行病学家可以看作是研究疾病规律的统计学家。我的博士论文两位导师之一就是一位流行病学家。
第二点体现在对疫情未来发展趋势的判断上。比如,疫情什么时候出现拐点,何时结束,最终会有多少感染人数和死亡人数等。这不是随便猜出来的,而是经过科学系统的统计学模型判断出来的。这一点,不仅是全球公众的关心所在,也是各国决策机构的重要参考依据。
最后一点,可能一般公众未必了解,那就是药物和疫苗研发非常依赖统计学。事实上,一直以来,医药行业是统计学人才的主流就业去向之一。无论是治疗药物还是疫苗,在不同个体身上的效果都可能存在较大差异,为了弄清楚药物或者疫苗是否有效,就要考虑所有可能会影响到疗效的因素。
这时候,我们就要通过试验来作判断。统计学有一门课程叫作临床试验,讲的就是这个问题。任何药物和疫苗,它的显著性最终都必须经过统计学的实证分析。
1月31日,香港大学医学院研究团队在《柳叶刀》上发表的“对起源于中国武汉的2019-ncov暴发的潜在国内和国际传播进行临近预报和预测:建模研究”
Q :总体来说,国内统计学科研团队对此次疫情作了哪些方面的研究分析?国内第三方独立从事疫情数据收集和分析的研究机构数量如何?
肖志国:在我的印象中,疫情早期,就有一些研究机构在预测疫情走势,影响较大的团队是香港大学医学院研究团队。
现在,在疫情预测方面,北京大学多个团队都对病毒的潜伏期及未来走势提出了很多新颖的判断。复旦大学包括张文宏医生所在的华山医院感染科在内,也有很多团队在做这方面的研究。3月15日,5000余名统计学专家学者举办了“科学抗疫,统计担当”的全国线上会议,围绕疫情监控、疫情传播规律挖掘、防控信息统计和经济运行等话题展开研讨。
从历史上来看,国内做疫情历史数据整理和分析的机构是很多的。不过我的感受是,因为近年来大规模高烈度的传染病疫情越来越少,这方面的研究人员和研究机构也随之减少了。所以张文宏医生也说他大部分时间在坐冷板凳。
Q :疫情初期,国外不少研究机构对中国疫情发展作出预测,现在则主要在预测全球疫情发展态势,影响这种预测准确性的因素是什么?
肖志国:所有的预测都是基于某种模型。简单来讲,模型就是研究者所假定的疫情传播的原理,它们的参数需要通过历史数据来进行估算。
影响预测准确性的因素首先是模型假设的合理性。任何模型都是对现实的一个简化,而且很可能是过度的简化。而这当中,人的行为,尤其是实施管制之后,人们对规则的遵守情况,是很难准确刻画的,这是导致预测出现问题的一个主要因素。这也是为什么在世界范围内,模型预测都受到实际工作者质疑和批评的一个原因。
包括美国政府现在决策所主要依赖的IHME模型,最近也受到广泛的批评,理由就是它显著低估了疫情的严重程度。一个悖论在于,模型必须要简化现实才能够产生,但它遭受批评也是因为简化现实。
影响预测准确性的另一个因素是数据的准确性。对任何一个国家而言,在有限的时间内进行大规模的病毒检测,同时要保证检测结果的准确性,这都是一件非常难的事情。哥伦比亚大学新冠病毒预测模型的作者沙曼教授对此作了很精炼的总结:“预测的困难在于,疫情局势变化极其迅速,而我们可用的信息又是悲催的不完整。”
更关键的是,疫情局势时刻千变万化,这就导致模型很难跟得上现实的脚步,数据和信息很难准确完整。所以我认为,模型是重要的参考依据,但它的准确性不是百分之百的。实际所能预测到的通常也只能是近期相对较短的一段时间,比如也就是几天之内的情况。推测时间越远,可靠性就越要打折扣。
Q :让人感到新颖的是,此次疫情期间,国内外相关机构都对疫情数据做出了一系列可视化呈现,它们的生产和传播过程是怎样的?
肖志国:海量信息面前,要提升公众对疫情的认知,不仅需要准确及时的疫情数据统计,还应该有新颖的数据描述方式。一个简洁明了而且结论清晰的图形,尤其是当它的呈现形式相当特别的时候,就很容易受到广泛传播而形成防控共识。
比如,在国内,丁香医生网站的疫情数据实时动态,迄今为止已经有超过40亿次的浏览量。人民日报推出的一系列新型玫瑰花瓣图也受到广泛关注,这是南丁格尔图形的现代版。
在全球疫情数据呈现方面,美国约翰·霍普金斯大学开发的数据以及疫情分布图,现在平均每天点击次数近10亿次,它的核心图形也是斯诺的霍乱分布地图的现代版。
在这个过程中,第三方研究机构往往不可或缺,而媒体则是一个关键的传播平台。现在,公众能够接触到的疫情数据平台非常多。无论是人民日报、丁香医生,或者是支付宝、微信和主流新闻网站,这些平台都是可信的,因为大体上的数据来源都是一致的。
Q :在目前的疫情发展态势下,疫情数据的统计分析应该去关注哪些方面的问题?
肖志国:当前阶段,国内的疫情已经得到有效控制,但国际上还在迅速蔓延,截至4月28日11时,全球确诊病例已经突破306万。我们现在要对未来做好充分准备。
未来疫情数据分析的重点,是对此次疫情一些根本问题的准确判断。比如说,这个病毒的传播系数(R0)是多少,病毒的潜伏期服从何种分布,无症状感染者的比例是多少,感染者中的死亡比例是多少等等,以及这些因素是否会随其他因素(比如说年龄、性别、气温等等)变化而变化,这些都是很关键的问题。
我们已经积累了几百万病例的数据,但可惜的是,国际社会目前对这些问题还没有得到一致可信的结论。希望后期的研究分析能够对这些问题有更加科学的回答。
Q :在疫情数据收集中,互联网技术、大数据手段等科技提供了哪些帮助?这些手段和个人隐私权是否会形成一定冲突?
肖志国:举个例子。我们打开支付宝等软件,几乎不需要回答任何问题,就可以查到自己的健康码状态。这大大方便了公众在疫情期间的出行。这说明,一些技术平台对公众的健康状态是非常清楚的。
如果是作为疫情防控等公共利益的需要,那么我们就应该理解,通过技术手段收集私人信息不应该和个人隐私保护对立起来。当然,前提是这些技术行为都是得到公众授权的,并且双方明确它的使用途径和目的。实际上,我认为通过技术手段收集任何信息,首先都必须获得用户的知情和授权。
Q :你认为,在各类型的疫情数据统计工作中,公众应当树立哪些意识?可以做哪些工作?
肖志国:首先,任何公众都要积极配合疫情的统计,包括相关流行病学的调查和检测等工作。应该意识到,真实准确的数据信息是一个公共产品,对全社会都有好处。
当前,疫情在我国的传播已经得到了有效的控制,但无论是境外输入还是本地传播,在局部地区还偶有发生。因此对于已发病例的流行病学调查,以及在重点地区的人群中进行一定比例的随机抽样调查,都很有必要。这需要每个人的积极配合。
其次,当自身出现较高概率的被传染风险时,要及时就医,并将相关情况如实汇报给疫情数据统计部门。同时,每个人都要继续保持良好的卫生习惯,做好防护措施,并对任何信息保持客观理性的判断。
Q :武汉市4 月17日订正新冠肺炎确诊病例数、确诊病例死亡数,在疫情数据统计中,我们怎样才能做到更加真实准确?
肖志国:回过头来看,这是一个前所未有的疫情,全世界对它的准备和应对都存在很多可以改进的地方。典型的问题之一是在初期低估了它的严重性。只有在疫情真正可防可控的早期或者晚期阶段,准确的数据统计才是有可能实现的。为什么这么说呢?
因为根本的办法是进行大规模人群的动态抽样检测和追踪。但整个疫情是迅速传播开来的态势,由于传播途径的复杂性,症状表现形式的多样性,以及检测手段的不完善等问题,这时再想进行准确的统计,成本就极其高昂。我们获得严格意义上的真实准确数据几乎是不可能的。
要想实现疫情数据的更加真实准确,首先要防止各种原因的瞒报。其次流行病学调查要迅速,在最快时间内找到病毒传播路径和密切接触者。在这些显性案例之外,还要注意筛查各种隐形案例,例如注意复工复学人群的检测以及随机的抽样检测等工作。
总的来说,这需要各个部门的通力合作,尤其要发挥我们网格化管理的力量。所有的病例都有他的物理落脚点,包括社区、交通工具、出入境场所等公共场所以及医院和医学隔离观察点等。做好疫情监控和数据统计,在理论上我们需要所有关键节点单位的通力合作,尤其是社区居委会、检测机构、隔离场所和医院的密切合作。
* 转自公众号“南风窗”,作者为南风窗记者刘郝
推荐阅读
教授说战“疫”
鲍勇剑:商业的存在与时间——疫情的海德格尔之问
同命运,共呼吸!复旦学者关于生命的对话
中小企业疫情下战略分析报告发布,200家企业如何选择应对策略?
卢向华:疫情无法封闭的创新之路,应该这样走芮明杰:发展新基础产业的新思路新模式
吴肖乐:企业应对“黑天鹅”,BCP并非万能神器
包季鸣:如何转“危”为“机”?让领导力命令模型落地
李远鹏、邵宇:疫情下的中国资本市场和金融发展趋势
蒋青云:从业态、技术和管理看疫情后商业零售业的数字化转型
冯天俊:为什么口罩会出现“逆向牛鞭效应”黄建兵:面对前所未有的动荡市场,我们如何投资芮明杰:双管齐下,刺激消费复工复产
胥正川:“七个结论”看疫情影响下的零售行业罗妍:美股熔断后你需要记住的四点投资提示李治国:第二层思维,企业逆境谋发展的“宝藏脑洞”
陈祥锋:中国疫情引发全球供应链的“蝴蝶效应”
芮明杰:稳增长谋未来,发展新基础产业正当时李若山:直面现金流危机,企业 “余粮”怎么管姚志勇:生物医药行业创新将迎来爆发期苏勇:七个方面看企业自救的“招数” 鲍勇剑:危难情境下,更需要“真切领导力” 鲍勇剑:复产复工,企业董事长的两件手头要事孙金云:中小企业,活下去要做好这四件事情芮明杰:疫情“黑天鹅”,企业如何应对芮明杰:稳住服务业,就稳住了经济增长战“疫”,5位复旦教授如是说
欢迎关注 “瞰见”云课堂
特别推荐
点击图片识别二维码收看访谈